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Параллельно-конвейерная реализация задачи 
умножения матрицы на поток векторов 

на реконфигурируемых вычислительных 
системах 


В статье предлагается вариант параллельно-конвейерной организации вычислений при аппаратной 
реализации решения задачи умножения матрицы на поток векторов на реконфигурируемых 
вычислительных системах (РВС). 


Одной из часто встречающихся операций линейной алгебры является умножение 
квадратной матрицы на вектор [1]. Входными параметрами для данной процедуры являют- 
ся: матрица А/п,п], вектор В/и], размерность матрицы и. Результирующий вектор — С/!]. 
Каждый элемент результирующего вектора рассчитывается путем перебора элементов 
строк матрицы А и умножения их на соответствующие элементы вектора В. Результат 
умножения прибавляется к текущему значению элемента вектора С. 

Каждый элемент результирующего массива рассчитывается по следующей фор- 
муле: 


г ИАяВ (1) 
= 


Организация параллельных вычислений при решении задачи умножения матрицы 
на поток векторов на реконфигурируемых вычислительных системах (РВС) позволяет 
достигать высокого уровня реальной производительности, близкой к пиковой производи- 
тельности системы [2]. 

Информационный граф реализации вычислений в соответствии с формулой (1) 
представлен на рис. 1, на котором указаны входные информационные вершины А и В, 
выходная информационная вершина С, т — глубина линии задержки. 

Построение множества вычислительных блоков, реализующих указанный на рис. 1 
информационный граф, позволяет производить параллельные вычисления для множества 
строк матрицы и потока из и векторов В. 
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Рисунок 1 — Граф задачи 


Таким образом, глубина линии задержки, изображенной на рис. 1, равна величине 
потока векторов — т. При этом поток векторов В имеет следующий вид: 


<ЫЬБ.. БЫ Ь5Ь....Б-.--В1 ЗБ. -.Бы > 
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где верхний индекс означает элемент вектора, нижний индекс означает номер вектора в 
потоке. 

Таким образом, на входы умножителя с информационных вершин 4 и В поступают 
потоки элементов матрицы и векторов соответственно. Далее, результат умножения 
складывается с ранее накопленным значением элемента вектора С, поступающим из 
линии задержки. 

Для проведения итерации вычислений (умножение одного элемента матрицы на 
соответствующие элементы векторов) в соответствии с формулой (1) на момент прохож- 
дения в информационной вершине В порции из т ]-ых элементов векторов в инфор- 
мационной вершине А должен быть зафиксирован /-й элемент 1-й строки матрицы. 

После прохождения через граф т и-элементных векторов на выходе сумматора 
сформируется поток результатов от 1-й строки матрицы вида: 

Я 

Таким образом, для организации параллельных вычислений необходимо использо- 
вать множество вычислительных блоков, реализующих изображенный на рис. 1 информа- 
ционный граф, при этом информационная вершина В будет общей для всех графов, а на 
различные информационные вершины А подаются элементы различных строк матрицы. 

Задача умножения матрицы на поток векторов была реализована на РВС, структур- 
ная схема которой приведена на рис. 2. Данная вычислительная структура обрабатывает 
массивы данных, следующие плотным потоком. Обработка данных ведется в формате с 
плавающей запятой в строгом соответствии со стандартом 1ЕЕЕ-754. 

На рис. 2 изображено решающее поле из 16-ти микросхем Ущех-4 УГХ40 с инфор- 
мационными связями между ними, микросхемы распределенной памяти и контроллер 
обмена КО с управляющим персональным компьютером. Тактовая частота РВС состав- 
ляет 160 МГц. 

Помимо вычислительных блоков структура должна содержать дополнительные 
блоки, с помощью которых организовывается процесс решения задачи от поступления 
исходных данных до вывода результатов на данной РВС. 
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Рисунок 2 — Структурная схема реализации задачи на РВС 
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Структура вычислителя, предназначенного для решения задачи умножения матри- 
цы на поток векторов, представлена на рис. 3. 


Рисунок 3 — Структура вычислителя 


На рис. 3 показаны блоки со следующими обозначениями: 

КРИТ, КРП?2 - контроллеры распределенной памяти; 

Мх! — мультиплексор выбора КРП; 

БУ - блок управления; 

ВБ - вычислительный блок. 

КРП, который описан в [2], обеспечивает связь вычислительной схемы с мик- 
росхемами распределенной памяти, из которой считываются команды и данные, а также 
записываются результаты вычислений. 

КРИ] предназначен для хранения и выдачи команд и массива строк матрицы, а 
также для записи результатов вычислений из ВБ. 

КРП? предназначен для хранения и выдачи массива векторов. 

Мх! предназначен для переключения потоков данных, поступающих на ВБ. 

В единый момент времени на ВБ поступает либо массив элементов строки матрицы 
для сохранения их во внутреннем буфере (загрузка элементов матрицы), либо массив 
элементов векторов для прохождения через вычислительную структуру (выполнение 
вычислений). На БУ всегда поступают команды из КРИ. 

БУ предназначен для декодирования команд и формирования сигналов, под 
управлением которых ВБ реализует выполнение задачи. 

Структурная схема БУ представлена на рис. 4. 
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Рисунок 4 — Блок управления 


В регистре РГ хранятся параметры вычислительного модуля, поступающие из 
КРИ в виде команд С: 
1 — количество векторов, участвующих в обработке; 
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п — размерность матрицы; 

й — количество ВБ в вычислительном модуле; 

7 количество загружаемых строк матрицы. 

На блоки счетчиков БСТ — БСТЗ поступают соответствующие параметры из 
регистра РГ, что обеспечивает формирование маркеров, сопровождающих различные 
данные в вычислительном модуле: 

М$ — маркер для сопровождения потока векторов; 

МК - маркер для сопровождения потока результата; 

МИ - маркер для сопровождения потока матрицы. 

Схема управления СУ формирует маркер МЕ, сопровождающий поток первых 
элементов векторов и означающий первую итерацию накопления результатов, при кото- 
ром на второй вход сумматора в ВБ подается нулевое значение. 

Структурная схема ВБ представлена рис. 5. 


Рисунок 5 — Вычислительный блок 


Буфер ВОЕ! предназначен для хранения строки матрицы. Умножитель МОГ, сум- 
матор АОР и линия задержки ВОЕ2 реализуют вычисления в соответствии с инфор- 
мационным графом задачи. Мультиплексор МХ2 предназначен для коммутации потоков 
данных, поступающих в следующий ВБ. Потоки данных представляют собой потоки 
строк матрицы, потоки векторов и потоки результатов. Мультиплексор МХ1 предназна- 
чен для коммутации потоков промежуточных результатов и результатов из предыдущего 
ВБ, поступающих на буфер ВУЕ?2. 

Таким образом, аппаратная реализация множества ВБ позволяет организовать па- 
раллельно-конвейерные вычисления для решения задачи. 

Ресурс РВС, представленный на рис. 2, позволяет применить для реализации задачи 
8 пар КРП. Также в каждой ПЛИС реализован ВОЕ1 в ВБ, размером и = 9216 слов для 
хранения строки матрицы, и ВОЕ2, размером #= 1152 слова для накопления результатов. 
В микросхемах с КРП размещено по 4 ВБ, а в микросхемах без КРП - по 5 ВБ. Общее ко- 
личество ВБ в РВС составляет 72, что позволяет вести одновременный расчет результатов 
по 72-м строкам матрицы. 

В соответствии со структурой РВС микросхемы решающего поля разделены на три 
типа: 

008, 2012, 2О16, 2020, 2О21, 2О23, 2О11, 2010 —-с КРП; 

0022, 2019, 215 - с «транзитным» КРП; 

2014, 218, 2017, ОБ13, 209 - без КРП. 

Микросхемы с «транзитным» КРИ предназначены для организации синхронизации 
между КРП. В связи с этим на рис. 6-8 изображены измененные структурные схемы 
вычислений для этих типов микросхем. 

Необходимо отметить, что при использовании в вычислительном процессе более 
одной пары КРП активной (передающей исходные данные и принимающей результаты 
вычислений) может быть только одна пара. Поэтому в этой структуре использован допол- 
нительный мультиплексор Мх2 для коммутации потоков данных и управления на ВБ от 
собственного КРП или от предыдущего КРП, когда собственное КРП является пассив- 
ным. В связи с этим необходимо ввести процедуру «транзита» (переноса), содержимого 
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ВОВ1, в ВБ от текущего КРП к последующему при исчерпании векторов в текущем КРИ 
и от текущего КРП в начальное КРП при исчерпании матрицы в текущем КРП. Количест- 
во шагов переноса из КРИ в БУ передается также в параметре г. 
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Рисунок 6 — Структура вычислителя для микросхем с КРИ 
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Рисунок 7 — Структура вычислителя для микросхем с «транзитным» КРИ 


В структуре, показанной на рис. 7, применен блок «транзитного» КРП (ТКРП) для 
синхронизации всех КРИ БМ. Отсутствие мультиплексоров и БУ объясняется отсутст- 
вием КРИ. 
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Рисунок 8 — Структура вычислителя для микросхем без КРИ 


В последней структуре (рис. 8) использованы только ВБ. 

Обобщенный алгоритм функционирования вычислительного модуля состоит из 
трех операций, выполняемых последовательно во времени: 

— загрузка строк матрицы; 
— чтение потока векторов (выполнение вычислений); 
— сохранение результатов. 

Таким образом, при реализации на данной РВС рассмотренная структура вычис- 
лителя способна решать задачу умножения матрицы на поток векторов со следующими 
параметрами: 

максимальный размер матрицы -— 9216 

максимальный поток векторов - 14560 

максимальная размерность матрицы ограничена объемом ВОЕ1 в ВБ, а макси- 
мальное число векторов определяется объемом памяти, подключенной к КРП. 

За один шаг структура может обработать: 

векторов 152 

строк матрицы - 72. 
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Следует отметить, что решить задачу с обоими максимальными параметрами (раз- 
мер матрицы и число векторов) не представляется возможным. При решении задачи с 
максимальным значением размера матрицы допустимая величина потока векторов будет 
меньше приведенного и наоборот. Это связано с тем, что в процессе решения задачи 
накапливается массив результирующих данных, размер которого, в итоге, превышает 
свободный объем памяти, хранящей исходные строки матрицы. 
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Рисунок 9 — Блок-схема алгоритма работы ведущих КРИ 
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Для управления работой вычислительной схемы была разработана параллельная 
программа на языке Агеиз. Данная программа представляет собой набор инструкций 
(команд) для КРП, осуществляющих: 

— чтение или запись данных в схему или из схемы; 

— переключение режимов работы КРП; 

— последовательную работу всех пар КРП, когда обрабатываются строки матрицы и век- 
торы в одной паре КРП, другие КРП находятся в режиме ожидания; 

— изменение таких параметров, как КРП-источник данных, число пройденных итераций; 

— проверку необходимости перехода к следующей итерации. 

В каждой паре КРИ одно КРИ является ведущим, а другое — ведомым, и, следова- 
тельно, для каждого из них существует собственная подпрограмма. 

Блок-схема алгоритма работы ведущих КРП показана на рис. 9. 

На этом рисунке в блоке 1 происходит инициализация переменных начальными 
значениями, подается программный сброс в вычислительную схему, загружаются необхо- 
димые параметры. 

Далее организуется цикл по 1 (блок 2), который повторяется до тех пор, пока не 
выполнится условие 1>=М, где М — параметр, определяющий общее количество блоков 
исходной матрицы по 72 строки в каждом блоке. Число строк в блоке обусловлено 
характеристиками вычислительной схемы. 

В блоке 3 проверяется условие, по которому КРП либо читает строки матрицы в 
вычислительную схему (блок 4) с последующей проверкой (блок 5) о необходимости 
транзита прочитанных строк в КРПО (блок 6), либо переходит в режим ожидания (блок 7). 
Таким образом, на этом участке алгоритма учитывается тот факт, что для КРПО нет 
необходимости производить транзит данных, потому что данные и так находятся в КРПО. 

В блоке 8 происходит запись полученных результатов. 

Если текущий КРИ не является последним (номер последнего ведущего КРИ - 17) 
(блок 9), то осуществляется транзит строк матрицы в следующее КРП (блок 10). После 
этого текущий КРП переходит в режим ожидания (блок 11), пока остальные КРП не 
закончат свою работу по записи результатов. Следует отметить, что режим ожидания 
означает перевод текущего КРП в пассивное состояние. 

В конце алгоритма для текущего КРП-источника данных проверяется условие 
наличия строк исходной матрицы (блок 12). Если условие не выполнилось, то источ- 
ником данных устанавливается следующий КРП (блок 13). 

После наращивания параметра цикла (блок 14) происходит переход на следующую 
итерацию. 

Блок-схема алгоритма работы ведомых КРП показана на рис. 10. 

Основной задачей ведомого КРИ является выдача потоков векторов в заранее 
определенные моменты времени под управлением ведущего КРП. 

Для простоты реализации принято, что: 
— исходная матрица и поток векторов распределяются на ресурс оперативной памяти РВС 
равными долями; 
— максимальное число векторов составляет 9216, равное максимальной размерности мат- 
рицы. 

Схема БУ, ВБ и КРП реализована в САПР 1ЗЕ 7.1. Проведено функционально- 
временное моделирование проекта в программной среде Моде! ит 6.1., которое показало 
правильность выполняемых вычислений, а также возможность работы БУ и ВБ на час- 
тоте 250 МГц. 

Также задача умножения матрицы на поток векторов была реализована на РВС 
другой архитектуры, содержащей 16 ПЛИС фирмы ХШих ХС4УГХ80 с тактовой часто- 
той 250 МГц, в которых размещено 12 пар КРП. 
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Экспериментальные исследования параллельно-конвейерной реализации задачи ум- 
ножения матрицы на поток векторов показали, что производительность РВС, содержащей 
16 ПЛИС фирмы ХШих ХС4УГХАО с тактовой частотой 160 МГц, составила 21,7 ГФлопс, 
на РВС, содержащей 16 ПЛИС фирмы ХШиах ХСАУГХ80 с тактовой частотой 250 МГц, — 
70,9 ГФлопс. 

Выигрыш по времени решения по сравнению с ПК шеВ) Соге(ТМ) 2 СРО4400 (@ 
2.009 НЕ составил 54 раза и 176 раз соответственно. 


Начало 
Инициализация. 1 = 0: 


Рисунок 10 — Блок-схема алгоритма работы ведомых КРИ 


Таким образом, предложенная организация параллельно-конвейерных вычислений 
при решении задачи умножения матрицы на поток векторов позволяет достигать высокой 
реальной производительности реконфигурируемой системы, существенно превышающей 
производительность современных универсальных процессоров. 
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